Text copied to clipboard!

Título

Text copied to clipboard!

Engenheiro de Confiabilidade de Site (SRE)

Descrição

Text copied to clipboard!

Estamos à procura de um Engenheiro de Confiabilidade de Site (SRE) altamente qualificado para se juntar à nossa equipe de tecnologia. Este profissional será responsável por garantir a estabilidade, escalabilidade e desempenho de nossos sistemas e serviços digitais. O SRE atuará como ponte entre desenvolvimento e operações, promovendo práticas de engenharia para melhorar a confiabilidade e eficiência dos sistemas em produção. O candidato ideal terá experiência com ambientes de produção em larga escala, automação de processos, monitoramento de sistemas e resposta a incidentes. Espera-se que o profissional colabore com equipes de desenvolvimento para implementar soluções resilientes, além de criar ferramentas e processos que reduzam o trabalho manual e aumentem a eficiência operacional. Entre as principais responsabilidades estão a criação e manutenção de pipelines de CI/CD, desenvolvimento de scripts de automação, configuração de alertas e dashboards de monitoramento, além de participar de análises pós-incidente para identificar causas raiz e propor melhorias. O SRE também será responsável por definir e acompanhar métricas de confiabilidade como SLOs, SLIs e SLAs. Além disso, o profissional deverá ter uma mentalidade proativa, buscando constantemente formas de melhorar a infraestrutura e os processos existentes. A capacidade de trabalhar em equipe, comunicar-se de forma clara e resolver problemas complexos sob pressão são habilidades essenciais para o sucesso nesta função. Se você é apaixonado por tecnologia, tem espírito colaborativo e deseja trabalhar em um ambiente dinâmico e inovador, esta é a oportunidade ideal para você.

Responsabilidades

Text copied to clipboard!

Garantir a disponibilidade e confiabilidade dos sistemas em produção
Desenvolver e manter pipelines de integração e entrega contínua (CI/CD)
Automatizar tarefas operacionais e processos repetitivos
Monitorar sistemas e configurar alertas proativos
Responder a incidentes e realizar análises pós-morte
Colaborar com equipes de desenvolvimento para melhorar a resiliência dos sistemas
Definir e acompanhar métricas como SLOs, SLIs e SLAs
Documentar processos e procedimentos operacionais
Participar de revisões de arquitetura e planejamento de capacidade
Implementar práticas de segurança e conformidade em ambientes de produção

Requisitos

Text copied to clipboard!

Formação superior em Ciência da Computação, Engenharia ou áreas relacionadas
Experiência com sistemas distribuídos e ambientes de produção em larga escala
Conhecimento em linguagens de script como Python, Bash ou Go
Familiaridade com ferramentas de automação como Ansible, Terraform ou Puppet
Experiência com plataformas de nuvem como AWS, GCP ou Azure
Conhecimento em containers e orquestração (Docker, Kubernetes)
Experiência com ferramentas de monitoramento como Prometheus, Grafana ou Datadog
Capacidade de resolver problemas complexos sob pressão
Boa comunicação e trabalho em equipe
Inglês técnico para leitura e escrita